基于ChatBI的Text2SQL应用实践探索！

DataFunTalk

2024-09-11

数据产品踩坑方法论？

大模型如何重塑数据产品新形态？

数据产品背后有怎样的数据指标逻辑？

ChatBI如何加持Text2SQL？

NL2SQL是否还有其他路径？

如何制定有效的产品策略并验证效果？

9月22日，09:00-17:00，DataFun将联合业内多位知名产品专家举办DataFunSummit2024：数据产品在线峰会，探讨大模型时代的数据产品设计理念与方法论，并分享他们的最新思考与落地实践经验。感兴趣的小伙伴欢迎识别二维码免费报名，收看直播：

扫码免费报名，收看直播

峰会日程

精彩推荐：

详细介绍：

王成栋京东集团产品总监

个人介绍：本科毕业于中国科学技术大学，清华大学MBA，曾在明略、阿里等公司任职，目前在京东零售负责零售业务数字化转型相关工作，在数字化营销、数据产品建设、数字化转型方面具有丰富的经验。

演讲题目：“慢”增长时代的企业数据体系建设：超越数据中台

演讲介绍：随着宏观经济下行周期到来和行业竞争加剧，互联网企业进入“慢”增长时代。新的时代给企业带来了新的挑战，为了应对这些挑战，企业的数据体系建设应该如何转变？在本次分享中，从企业数据体系建设顶层策略、数据组织、数据产品矩阵、数据产品经理技能四个方面探讨如何进行变革，以构建企业的增长数字化驱动力，帮助企业应对“慢”增长时代的新挑战。

听众收益：

1. 应对新的环境，企业数据体系建设应该承担什么角色

2. 应对新的环境，企业的数据产品矩阵应该如何建设

3. 应对新的环境，数据产品经理应该如何提升自身的技能

岑润哲数势科技数据智能产品总经理

个人介绍：岑润哲，现任数势科技数据智能产品总经理，前头部互联网公司资深量化运营负责人，多年零售与金融行业数据挖掘与用户运营策略设计经验，曾为多家大型企业搭建从目标设定、数据诊断、策略设计到优化复盘的全链路数字化运营平台。

演讲题目：替代 NL2SQL，Agent+业务语义的创新产品设计

演讲介绍：数据分析领域是大模型技术落地的重要方向。此次分享我们将介绍如何设计大模型智能分析产品让其能够准确地回答业务问题。利用AI Agent+指标和标签平台语义层提供组织中每个人都可以访问的数据智能解决方案。我们将结合真实落地的应用场景，分享为什么在大模型技术赋能数据分析场景时需要引入“业务语义层”（Semantics），以NL2Semantics2Metrics+Label API替代NL2SQL，此设计理念的产品逻辑，展示这种仓外语义层在解决数据分析准确性、数据源全面性、分析逻辑黑盒不可信以及数据计算查询效率及性能等方面的价值。最后，我们还将结合我们在数据产品设计中踩过的坑总结当下技术难点，展望未来发展趋势，尝试为大模型技术赋能数据产品设计创新提供思路。

演讲提纲：

1. 引言：介绍大模型技术在数据分析领域的重要性，能够解决的痛点是什么。

2. 解决方案设计：介绍智能分析产品的常见设计思路和存在的问题，以及如何解决。

3. 技术框架：

① 详细说明为什么要引入“业务语义层”（Semantics），以NL2Semantics2Metrics + Label API 替代 NL2SQL；

② 详细说明AI Agent+指标和标签平台语义层如何工作，并展示其架构。

3. 应用场景分享：展示具体的落地应用案例和场景必要性。

4. 产品逻辑与价值：解释新设计理念的产品逻辑，展示在多个方面的价值。

5. 技术难点与经验总结：分享在数据产品设计中遇到的挑战和总结的经验。

6. 未来展望：讨论产品演进的趋势，并提供基于大模型技术的数据产品设计创新的思路。

听众收益：通过此峰会，您将了解大模型技术在企业设计数据产品时的作用，如何弥合自然语言（Natural Language）和结构化查询之间的差距，确保精确的数据获取和分析决策建议。

落地挑战和方案重点：当前数据分析 Agent 更多的还是在数据获取和分析建议层面，尚未实现真正意义上的“数据分析-数据洞察-数据决策”的完整闭环，未来的数据分析 Agent 应当拥有垂直领域的规划能力，能够能像业务专家一样规划，从而通过连接让对应的系统自动执行。

程亦曲 1688 AI产品专家

个人介绍：AI产品经理，先后就职于百度、字节跳动负责VR、NLP相关的产品；目前就职于1688技术部，参与1688内以 LLM 为主的 AI 技术落地和产品规划与设计等工作。

演讲题目：1688AI助手“源宝”的产品演变之路

演讲介绍：介绍了1688中针对买家打造的 AI 采购助手“源宝”的从 0 到 1 的产品迭代历程，结合产品、数据、技术边界的多方视角分享 AI 在电商类用户产品中落地的决策依据和设计思路。

听众收益：

1. 了解在电商行业中落地 AI 技术与其他行业或场景的异同点

2. 了解用户场景、数据、技术能力对 AI 产品设计的影响

3. LLM、Agent 等 AI 技术在产品中的应用

高波小米集团数据智能产品负责人

个人介绍：高波，小米集团数据智能产品负责人，产品专家，香港大学应用心理学硕士。10年产品职业生涯始终坚持在对话AI领域，热衷于AI相关产品设计工作。校招加入阿里参与初代人工智能产品-阿里小蜜的产品设计工作；后加入腾讯负责游戏对话AI相关的国内/海外产品设计工作，赋能腾讯上百款游戏；现负责小米集团数据智能产品团队，产品矩阵包括「AI智能问答平台丨BI商业智能分析丨CI用户智能运营」等相关产品，深度全面赋能小米内部海量业务。

演讲题目：小米数据机器人：数据深度分析与便捷消费实践

演讲介绍：随着业务信息化、数字化的逐步展开，如何利用数据来驱动效率的提升，进一步提高业务运作水平显得至关重要，数据智能则是驱动业务数据产生价值的最后一公里，为业务高效分析数据、快速形成决策提供了有效的支撑。本次分享将从"行业数据消费现状"、"BI与AI如何完美结合"、"如何做好数据机器人"、"如何让产品在实际业务中产生价值"等几方面详细介绍。

演讲提纲：

1. 行业数据消费现状

2. BI+AI如何完美结合

3. 产品设计最优解是什么

4. 如何贴合业务场景去做设计

5. 实际业务使用的价值如何

听众收益：

1. 数据机器人诞生背景

2. 数据机器人设计理念

3. 数据机器人如何应用

落地挑战和方案重点：数据机器人现阶段受限于业务的数据所处阶段以及业务数据智能化消费的心智，如何帮助业务更高效快捷应用数据机器人以及让数据机器人的数据分析结果更加深度并应用到业务结果中产生实际价值的驱动是重中之重。

樊帆腾讯 PCG 大数据平台部产品及增长负责人

个人介绍：现任腾讯产品与增长负责人，主要负责PCG灯塔产品策划与增长相关工作。毕业于香港中文大学，先后在百度、腾讯从事策略、数据产品经理工作，拥有5 年+数据产品、数据驱动业务决策等方向业务背景和经验，期间完成多个产品0-1的孵化和推广，目前同时也在负责ABI创新方向的探索和落地。

演讲题目：分析型BI+AI产品创新探索

演讲介绍：随着大模型的横空出世，基于AI能力进行数据分析是各公司蜂拥而至探索创新的方向，但数据领域区别于其他内容领域，用户需有数据领域基础和数分思路意识、需要得出精准的分析结果、需要有超出结果数据本身更深度的 insight 方可获得用户留存。因此利用AI能力：如何引导用户进行数据分析、如何设计产品形态以提升用户体验、如何尽可能保障结果的准确性、如何给到业务更多 insight 是这个领域需要持续攻克的难题...

演讲提纲：

1. ABI产品趋势

2. ABI落地难点

3. 探索思路

· 产品形态创新（GUI、AI Anywhere）

· 分析问题推荐（业务/个人高频历史查询、结构化 query 形态）

· 与BI工具的更多结合点（不高级但有用）

4. 规划和总结

听众收益：

1. ABI产品形态创新思路

2. 与BI产品结合点思考

落地挑战和方案重点：ABI、text2SQL、text2DSL、数据解读、AI出图、AI仪表盘

扫码免费报名，收看直播

谭云志腾讯 PCG 大数据平台部高级研究员

个人介绍：腾讯 PCG 大数据平台部智能数据分析（ABI）平台算法负责人，负责从 0 到 1 实现 AI 算法在数据分析平台的落地，在大语言模型、对话系统、Text2SQL 等方面有较深入的研究。毕业于清华大学，先后就职于 LinkedIn、探探、腾讯，有近 10 年算法研究和算法产品落地经验。

演讲题目：智能数据分析（ABI）平台落地实践

演讲介绍：以 ChatGPT 为代表的智能大语言模型展现出很好的语言理解、代码生成和一定的逻辑推理能力，如何利用好大语言模型的能力提升数据分析平台的智能化水平？在落地的过程中会遇到哪些问题？有什么样的解决思路？希望本次分享能给你带来一些启发。

演讲提纲：

1. BI平台的演化路径

2. 大语言模型（LLM）给 BI 平台带来了哪些全新的可能

3. AI 赋能 BI 需要具备哪些关键能力

· 智能对话系统降低人机交互门槛

· AI Agent 助力 LLM 像人类一样思考

· 核心 AI Agent 介绍

· 数据标注平台助力用户体验提升

4. 总结思考

听众收益：AI 赋能 BI 需要构建哪些关键能力、怎样做好落地。

落地挑战和方案重点：准确率、易用性、大语言模型、对话系统、Text2SQL

张尧 eBay 中国研发中心应用研究员

个人介绍：张尧，博士。现于 eBay Sherlock.io 监控平台任职 AIOps 算法研究员，研究内容包括 LLM 大模型及 Agents、图数据挖掘、异常检测及根因定位等，于 KDD，NeurIPS，ICLR，WWW，TKDE 等顶级会议/期刊发表一系列论文。

演讲题目：AI Agents 在 On-call 智能助手场景中的探索与实践

演讲介绍：Sherlock.io 是 eBay 内部的监控平台，管理着不同类型的监控数据，包括Metrics、Events、Logs 和 Traces 等。平台的 On-call 工程师需要每天回答用户的各种问题，为此，我们探索了基于大模型 Agents 的智能 On-call 助手。本次分享将围绕用户意图识别、智能规划、精准执行等，介绍我们在 AI Agents 方向的探索与实现。

演讲提纲：

1. eBay sherlock.io 平台介绍及业务背景

2. 架构与方案：意图识别、智能规划、精准执行

3. 挑战与总结

听众收益：

1. 如何精准识别用户意图

2. 如何提升 Agents 的执行稳定性

落地挑战和方案重点：对话式 Agents 的自动化评估方案

冯俊晨火花思维大数据技术总监

个人介绍：2017年获得芝加哥大学博士，一直深耕互联网教育行业的数据分析、算法应用和AI落地。在EDM等国际教育数据会议上发表多篇论文，并担任人民大学商学院和统计学院双聘企业导师。

演讲题目：火花思维数据分析体系建设和实战分享

演讲介绍：之前火花思维一直采用自研数据工具支持内部数据分析需求，但随着业务不断增长，也暴露出响应慢、维护成本高、功能不完善等问题。通过数据工具迁移，火花思维内部活跃数据消费者翻了两倍，活跃数据生产者翻了一倍，用户满意度从0.3提高到了0.7，实现了我们让数据分析成为美好体验的愿景。数据价值随着数据消费的增加而逐渐涌现，有效支撑了火花运营利润率的提高，新引入的数据工具矩阵支撑了用数据提高教学质量以提高留存、用数据提高增长物料设计质量来提高朋友圈分享有效率，以及用AB Test支持小流量增长决策。未来，我们也期待利用AI能力进一步加强洞见挖掘能力，加速数据到洞察的速度，解锁数据价值。

演讲提纲：

1. 痛点介绍：响应速度慢、功能有限、维护成本等问题，导致内部员工数据工具使用率及满意度不符合预期

2. 方案选型：行业主流数据分析工具选型与比较

3. 运营方案：拆解如何通过降低数据工具使用门槛、内部培训等运营方式，提升火花思维内部数据消费

4. 案例实践：通过3个实践案例，拆解火花思维数据分析体系建设成功经验

5. 未来展望：结合LLM，探索数据自助可行性；结合CDP，探索行为数据的业务价值

听众收益：

1. 行业数据分析工具选型及使用体验

2. 运营数据产品系统拿到业务结果的成功经验和失败教训

落地挑战和方案重点：

1. 如何进一步提升员工对数据工具使用深度浅，目前每个系统可能都只用了20%的功能

2. 如何解决第三方组件在数据治理上与内部系统融合有问题，例如调度系统、数据血缘等

刘明刚 bilibili 资深工程师

个人介绍：2021年8月加入B站，主要负责大数据集群/服务管理、元仓、智能运维等基础大数据平台；主导过机房迁移、SLO、大数据稳定性体系建设等专项。

演讲题目：B站一站式大数据集群管理平台（BMR）

演讲介绍：BMR是B站一站式大数据集群管理平台，提供Hadoop、Spark、Flink、Hive、Clickhouse、Kafka、Presto 等大数据引擎的管理。随着B站业务快速发展，大数据需求也日益增多，大数据机器数量从2021年3,000+增长到2024年10,000+，大数据所需承载的业务种类愈加繁多，为更好的承接业务场景的诉求，同时达到增加稳定性、提高效率、降低成本要求，BMR呼之而出。主要能力如下：

1.集群管理：在保障稳定的同时即时感知安全风险，为各类组件/集群提供高效安全的变更/迭代能力。

2.元仓建设：建设介于底层基础工程数据与上层业务数据之间的元数据，通过链路间数据的完善和打通，实现问题的快速感知和诊断。

3.智能运维（自助巡检、风险预测、故障自愈、智能问答）：智能运维系统可以全局了解集群的健康状况、提前发现集群、服务的风险、保证集群、服务的持续稳定的运行

演讲提纲：

· 背景介绍：介绍BMR产生背景、和整体产品架构

· 元仓建设：元仓的建设和应用

· 集群管理：迭代发布、扩缩容、配置管理、潮汐管理、安全生产等。

· 智能运维：巡检平台、风险预测、故障自愈、智能问答

· 定制化Manager：Flink Manager、Kafka Manager、Spark Manager等

听众收益：

1. 超大规模的集群管理实践

2. 大数据智能运维体系建设

落地挑战和方案重点：

· 元数据一致性问题

在元数据未闭环联动的情况下，一致性无法得到保障。B站的大数据集群当前仍以物理机为主，正在逐步容器化的阶段。大数据服务组件繁多，叠加多版本、混合部署、部分容器化等诸多因素，让元数据一致性的保障工作更加复杂。在完全平台之前，还存在脚本甚至人工操作，状态的变更无法有效闭环。节点遗漏和信息错误的情况时有发生，轻则服务器未有效利用，重则集群服务存在多个版本，留下稳定性隐患甚至直接影响业务生产。

不断完善覆盖面和使用场景的同时，一些重要的且短时间未实现数据闭环的场景，BMR在‘智能运维’模块的‘巡检’能力，去兜底去发现未知原因产生的脏数据或不一致的问题，让风险尽早被发现、被干预、被解决。

· 规模化管理

当“量变引发质变”和“不必过度设计”遇到“业务飞速发展”时，即时调整管理策略满足业务发展需求，极具挑战。

大数据玩的就是数据，硬盘少不了。当前我们的大数据集群磁盘数量在十万量级。每天磁盘正常故障超10块， BMR在‘智能运维’模块集成了‘硬盘故障自愈’的能力，打通各个平台的数据和流程，实现业务无感式的换盘。还有操作系统层面的内核管理与升级，在面临节点数量多、需要无感/无故障的管理，都会对平台提出更高的要求。

马雨佳京东物流数据科学家

个人介绍：京东物流数据科学家，作为参与人曾获得2023 年度中国物流与采购联合会“科技进步三等奖”。

演讲题目：物流行业产品策略的效果验证

演讲介绍：该演讲将探讨物流行业在进行产品策略验证时所面临的难点，包括物流场景下AB实验样本量小分不均、样本间有耦合分不开等问题，演讲将围绕京东物流的仓储、运输、配送核心环节产品策略的效果验证展开，包括各环节重点项目的背景、解决方案、验证方法和结果。通过此次分享，旨在为物流行业的策略验证提供思路和实践参考。

演讲提纲：

1. 物流行业产品策略效果验证的难点

2. 产品策略效果验证案例

· 仓储场景

· 运输场景

· 配送场景

听众收益：

1. 为实体行业的策略验证提供思路

2. 为物流行业的AB实验提供实践参考

落地挑战和方案重点：受样本量限制，被新策略干预的实验组找不到与之可比的对照组时，如何验证策略的效果。

黄佳成京东物流数据科学家

个人介绍：致力于AB实验、因果推断、时序预测等算法。

演讲题目：AB实验和因果推断在人员管理机制上的应用

演讲介绍：在人员管理机制上，验证和改善实验策略的方法有很多。而在智能化时代，AB实验、因果推断等方法在实验领域大放异彩。本次分享将通过以下两个项目，介绍因AB实验、因果推断等在人员管理机制上的实验应用。

· 积分机制：积分机制是一种内部人员管理的积分系统，广泛应用于各个企业。但是，如何评估积分机制是否有效？在积分机制落实的不同阶段，我们应用了AB实验与因果推断中的不同方法，包括合成控制、psm、did等。

· 客服话务量排班：话务量排班指企业客服的进线话务量排班，常结合客服量预测策略，实现精确排班以降低人力成本。但是，如何改善客服量预测策略的准确性和可解释性？为此，我们使用了因果发现等方式，在提升话务量预测准确性的同时，增加预测的可解释性。

听众收益：

1. 如何应用AB实验和因果推断评估不同实验策略效果；

2. 如何利用因果发现分析核心指标的关键因素并改善策略。

落地挑战和方案重点：实体实验的数据数据质量问题

扫码免费报名，收看直播

继续滑动看下一个

DataFunTalk

向上滑动看下一个

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

基于ChatBI的Text2SQL应用实践探索！

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

生成图片，分享到微信朋友圈

基于ChatBI的Text2SQL应用实践探索！

您可能也对以下帖子感兴趣